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农业 复杂 环境 下 尺度 自 适应 小 目标 识别 算法 
一 一 以 蜜蜂 为 研究 对 象 
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(中 国 农业 科学 院 农 业 信息 研究 所 /农业 农村 部 农业 信息 服务 技术 重点 实验 室 ,北京 100081) 


摘 要 : 农业 生产 环境 中 的 目标 识别 对 象 常 具有 分 布 密集 、 体 积 小 、 密 度 大 的 特点 ， 加 之 农田 环境 光照 多 
变 、 背 景 复 杂 ， 导 致 已 有 目标 检测 模型 无 法 取得 令 人 满意 的 效果 。 本 研究 以 提高 小 目标 的 识别 性 能 为 目标 ， 
以 蜜蜂 识别 为 例 ， 提 出 了 一 种 农业 复杂 环境 下 尺度 自 适应 小 目标 识别 算法 。 算 法 克服 了 复杂 多 变 的 背景 环 
境 的 影响 及 目标 体积 较 小 导致 的 特征 提取 困难 


， 实 现 目标 尺度 无 关 的 小 目标 识别 。 首 先 将 原 图 拆 分 为 一 些 


较 小 尺寸 的 子 图 以 提高 目标 尺度 ， 将 已 标注 的 目标 分 配 到 拆 分 后 的 子 图 中 ， 形 成 新 的 数据 集 ， 然 后 采用 迁 
移 学 习 的 方法 重新 训练 并 生成 新 的 目标 识别 模型 。 在 模型 的 使 用 中 ， 为 使 子 图 识别 结果 能 正常 还 原 ， 拆 分 
的 子 图 之 间 需 具有 一 定 的 重 和 琶 率 。 收 集 所 有 子 图 的 目标 识别 结果 ， 采 用 非 极 大 抑制 (Non-Maximum Suppres- 


sion, NMS) 去 除 由 于 模型 本 身 产 生 的 元 余 框 


IOS-NMS) 进一步 去 除 子 图 习 


三 区 域 中 的 宛 余 


， 提 出 一 种 交 小 比 非 极 大 抑制 (Intersection over Small NMS, 
医 。 在 子 图 像素 尺寸 分 别 为 300X300、500X500 和 700X700， 


子 图 重 倒 率 分 别 为 0.2 和 0.05 的 情况 下 进行 验证 试验 ， 结 果 表 明 : 采用 SSD (Single Shot MultiBox Detector) 
作为 框架 中 的 目标 检测 模型 ， 新 提出 的 尺度 自 适应 算法 的 召回 率 和 精度 普遍 高 于 SSD 模型， 最 高 分 别提 高 了 
3.8% 和 2.6%， 较 原 尺度 的 YOLOv3 模 型 也 有 一 定 的 提升 。 为 进一步 验证 算法 在 复杂 背景 中 小 目标 识别 的 优 


越 性 ， 从 网 上 的 取 了 不 同 尺度 、 不 同 场景 的 农田 复杂 环境 下 的 蜜蜂 图 像 ， 并 采用 本 算法 和 SSD 模型 进行 了 对 


比 测试 ， 结 果 表 明 : 本 算法 能 提高 目标 识别 性 


能 ， 具 有 较 强 的 斥 度 适应 性 和 泛 化 性 。 由 于 本 算法 对 于 单 张 


图 像 需要 多 次 向 前 推理 ， 时 效 性 不 高 ， 不 适用 了 


边缘 计算 。 
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1 引言 


展 "， 基 于 机 融 视 觉 的 目标 检测 受到 了 广泛 关 
TE, 已 取得 了 突破 性 进展 ””。 农 业 中 存在 着 许 


随 着 卷 积 神经 网 络 及 深度 学 习 技 术 的 发 。 多 目标 物 识别 和 计数 的 场景 ， 用 机 器 视觉 技术 对 
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农业 中 的 目标 物 进 行 智能 识别 和 计数 能 提高 农业 
的 智能 化 和 现代 化 水 平 。 农 业 生 产 环境 多 为 室外 
环境 ， 光 线 多 变 ， 背 景 复杂 ， 且 农业 生产 环境 中 
的 目标 物 大 多 具有 体积 小 、 密 度 高 的 特点 。 复 杂 
背景 环境 下 小 目标 的 识别 和 检测 是 农业 生产 环境 
中 常见 的 应 用 场景 ， 如 农业 遥感 图 像 中 小 目标 、 
果树 上 的 果实 、 蜂 集 内 的 蜜蜂 等 ， 面 向 农业 特定 
应 用 场景 的 要 求 ， 人 研究 特定 需求 的 算法 模型 以 获 
得 其 在 某 一 侧重 指标 的 优越 性 能 是 未 来 几 年 内 农 
业 智 能 识别 领域 的 研究 趋势 。 

由 于 小 目标 的 有 效 像素 少 、 尺 度 小 ， 缺 乏 特 
征 表达 能 力 ， 其 检测 一 直 是 目标 检测 中 的 难点 。 
已 有 众多 研究 者 从 不 同 角度 设计 优化 检测 模型 “ 
以 提高 小 目标 的 检测 性 能 。 有 的 优化 和 改进 主干 
网 络 结构 “" 以 提取 更 丰富 的 特征 ， 有 的 优化 锁 
框 ”以 提高 目标 的 定位 精度 ， 有 的 优化 损失 
函数 ”以 提高 模型 的 训练 效率 和 模型 性 能 ， 
这 些 改进 方法 能 一 定 程度 地 提高 对 小 目标 的 识别 
性 能 。 然 而 ,小 目标 的 像素 少 且 尺度 小 是 造成 其 
识别 性 能 较 差 的 根本 原因 。 增 加 小 目标 的 有 效 像 
素数 以 及 增加 其 尺度 是 改善 其 识别 性 能 的 主要 途 
径 。 同 时 ， 由 于 网 络 输出 层 包含 全 连接 层 ， 当 前 
的 网 络 模型 大 多 都 会 对 输入 图 像 归 一 化 至 标准 尺 
度 ， 如 快速 区 域 卷 积 神经 网 络 (Faster-Regions 
with Convolutional Neural Network, Faster- 
RCNN) °" 和 SSD (Single Shot MultiBox Detec- 
tor) 2 。 归 一 化 处 理会 导致 图 像 尺 寸 进一步 缩 
小 ， 目 标的 有 效 像素 进一步 减少 ， 增 加 了 小 目标 
识别 的 难度 。 提 高 输入 图 像 中 的 小 目标 的 尺度 ， 
增加 小 目标 的 像素 个 数 ， 有 利于 充分 提取 其 特征 
并 提高 其 识别 性 能 。 已 有 的 方法 大 多 通过 优化 模 
型 提高 小 目标 的 识别 性 能 ， 较 少 从 提高 小 目标 的 
尺度 〈 目 标 像素 数 与 整体 图 像 像素 数 的 比值 ) 出 
发 进行 研究 。 本 研究 着 眼 于 影响 小 目标 识别 性 能 
不 高 的 本 质 原因 一 一 有 效 像素 少 旦 尺度 小 ， 通 过 
图 像 拆 分 的 方法 简单 有 效 地 提高 小 目标 的 尺度 ， 
以 期 提高 其 识别 性 能 。 

蜜蜂 体积 小 且 在 图 像 中 尺度 小 ， 且 蜜蜂 常会 


Mp 


聚集 成 篮 分 布 ， 是 农业 中 典型 的 小 目标 识别 计数 
场景 。 本 研究 以 蜂 梨 口 的 蜜蜂 为 例 ， 提 出 了 一 种 
与 输入 图 像 尺寸 和 目标 尺度 无 关 的 基于 图 像 拆 分 
的 小 目标 识别 算法 。 首 先 将 原始 输入 图 像 拆 分 为 
多 个 子 图 ， 相 邻 子 图 之 间 设 置 有 重 秋 区域 ,将 多 
个 子 图 作为 模型 的 输入 图 像 ， 将 子 图 的 输出 结 

汇集 ， 然 后 采用 二 阶段 非 极 大 抑制 (Non-Maxi- 
mum Suppression, NMS) 方法 去 除 由 于 模型 本 
身 及 子 图 重 共 产生 的 宛 余 框 。 为 评 佑 算法 性 能 ， 
利用 本 算法 和 SSD 及 YOLOv3 (You Only Look 
Once) 模型 进行 了 验证 试验 ;从 网 上 把 取 了 多 种 
尺度 和 背景 下 的 蜜蜂 图 像 ， 将 本 算法 和 SSD 模 型 
进行 了 对 比 测试 ， 评 估 了 算法 尺度 适应 能 力 及 泛 
化 性 。 


2 尺度 自 适应 小 目标 识别 算法 


2.1 算法 框架 介绍 


基于 深度 学 习 的 目标 检测 算法 主要 分 为 前 处 
理 、 特 征 提 取 和 后 处 理 3 个 部 分 (图 1)。 传 统 算 
法 直接 将 整体 图 像 作为 网 络 模型 的 输入 ， 为 增强 
困难 小 目标 的 识别 性 能 ， 本 算法 将 输入 图 像 拆 分 
为 若干 子 图 ， 提 高 小 目标 的 尺度 ,增加 其 像素 
数量 。 

后 处 理 主要 使 用 NMS 去 除 卷 积 神经 网 络 输 
出 的 元 余 候 选 框 ， 找 到 最 佳 的 目标 位 置 ， 提 高 检 
测 的 准确 率 。NMS 是 基于 深度 学 习 的 目标 检测 
中 非常 重要 的 一 步 ， 最 早 提出 的 NMS ”将 所 有 
的 候选 框 按 得 分 值 从 高 到 低 排序 ， 选 取得 分 值 最 
TAY REE, MRNA Sg Ee RH EB E 
的 候选 框 ， 对 未 删除 的 候选 框 选取 得 分 值 最 高 的 
继续 此 操作 。 此 处 的 重 受 率 取 值 为 相 邻 两 个 框 的 
交 并 比 (Intersection over Union，IOU) ， 即 两 个 
框 的 交集 面积 与 其 并 集 面 积 的 比值 。 针 对 不 同 的 
应 用 场景 中 NMS 存在 的 问题 ， 分 别 对 其 进行 改 
进 提出 了 Soft-NMS ”、A-NMS * 等 多 种 非 极 
大 值 抑制 算法 。 本 研究 的 算法 不 仅 有 深度 学 习 网 
络 模型 产生 的 宛 余 框 ， 还 有 网 像 的 区 域 重 有 到 造成 
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Ba | 网 络 模型 


深度 学 习 目 标 检 测 模型 


图 1 尺度 自 适 应 小 目标 识别 算法 和 传统 基于 深度 学 习 的 目标 检测 算法 框架 对 比 图 


Fig. 1 Framework comparison between scale adaptive small objects detection algorithm and the traditional object detection 


algorithms based on deep learning 


的 检测 宛 余 ， 针 对 后 者 ， 提 出 了 一 种 交 小 比 非 极 [be 


大 抑制 (Intersection over Small NMS, IOS- 


NMS) 方法 以 进一步 准确 地 定位 目标 位 置 。 i 
算法 和 传统 基于 深度 学 习 的 目标 检测 算法 框架 
比 图 见 图 1。 


2.2 新 数据 集 生成 方法 


数据 于 2020 年 在 中 国 农业 科学 院 农业 信息 
研究 所 采集 ， 拍 摄 时 间 在 蜜蜂 较 活路 的 6 月 份 。 
蜂 入 口 是 蜂 集 与 外 界 的 交界 处 ， 光 线 不 受 谈 挡 且 
蜜蜂 较为 活路 ， 将 摄像 头 置 于 蜂 集 口 正 上 方 ， 摄 
像 头 分 辨 率 为 1280X720 像 素 ， 采集 时 间 从 早上 
8 点 持续 到 下 午 6 点 ， 拍 摄 间 隔 为 45 s。 涉 及 了 
早 、 中 、 晚 多 个 时 间 段 和 多 种 天 气 状况 ， 共 获取 
有 效 图 像 2613 张 。 采 用 手工 标注 对 原 图 进行 蜜 
蜂 标 注 ， 如 图 2 (a) 所 示 。 以 目标 识别 模型 SSD 
为 例 ， 原 图 输入 模型 后 首先 对 其 进行 归 一 化 为 
300X300 像素 的 图 像 (图 2 (b) )， 归 一 化 后 蜜 
蜂 尺 度 均 值 为 14 色 18 像素， 而 SSD 模型 中 面积 
最 小 锚 框 像素 大 小 为 30X30， 即 使 最 小 锚 框 也 是 
蜜蜂 像素 尺度 的 3.57 倍 ， 造 成 蜜蜂 回归 位 置 不 准 
确 ， 识 别 性 能 下 降 。 

为 增加 小 目标 的 有 效 像素 ， 提 高 其 尺度 ,使 
用 网 格 划 分 的 方法 将 原 图 拆 分 ， 拆 分 子 图 的 个 
数 和 子 图 的 尺寸 、 相 邻 子 图 的 重合 率 有 关 。 新 
生成 的 子 图 集合 产生 新 的 数据 集 用 于 模型 训练 
(图 3)。 子 图 尺 才 与 模型 的 归 一 化 输入 尺寸 、 目 
标的 尺度 及 原 图 的 分 辨 率 有 关 。 为 避免 正 负 样 本 
比例 不 均衡 ， 提 高 数据 输入 的 有 效 性 ， 加 快 模型 


面积 最 小 


(a) 采 集 及 标注 的 原 图 


(b)SSD 模 型 
归 一 化 图 像 
图 2 蜜蜂 原 图 和 归 一 化 后 图 像 及 最 小 锚 框 示意 图 
Fig. 2 Labeled images before and after scale normalization and 
the minimum anchor box 
的 训练 效率 ， 移 除 没 有 目标 物 的 子 图 ， 将 含有 目 
标的 子 图 加 入 到 新 数据 集中 。 由 于 蜜蜂 标注 是 在 
原 图 像 上 进行 的 ， 新 数据 集 生成 中 需要 针对 子 图 
对 标注 信息 进行 重新 计算 ， 算 法 流程 如 下 所 示 。 

(1) 原 数据 集 设 为 A， 对 于 任何 一 个 原 图 
VaeA; 

(2) 设 a 的 宽度 为 w， 高 度 为 2，a 中 的 目标 
物 为 集合 O0， 包 含有 目标 的 位 置信 息 和 类 别 信 
息 。 设 定 目 标 子 图 的 宽度 为 zw， 高 度 为 zh; 

(3) 对 于 原 图 ， 水 平方 向 以 zw 为 间隔 ， 垂 
直方 向 以 zh 为 间隔 ， 将 其 划分 为 [w/zw |X[h/zh | 
个 子 图 ,边缘 处 的 子 图 剩余 部 分 用 纯色 填充 ; 

(4) 对 VosO， 对 其 进行 重 分 配 和 坐标 的 重 
新 计算 ， 其 中 o 是 0 中 的 一 个 元 素 ; 

(5) 从 中 提取 存在 目标 的 子 图 加 入 新 建 数据 
集 B 中 。 

子 图 拆 分 时 ， 需 将 原 目 标 进行 重新 分 配 并 调 
整 其 在 子 图 中 的 坐标 ,目标 重 分 配 过 程 如 图 4 所 
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图 3 尺度 自 适 应 小 目标 识别 算法 数据 集 生成 过 程 示 意 


子 图 拆 分 


Fig. 3 Generation process of new dataset of scale adaptive small objects detection method 
示 。 知 目标 完全 处 于 一 个 子 图 中 ， 将 其 分 配给 该 
TE; 若 目 标 跨越 相 邻 的 两 个 子 图 (图 4 中 标注 
的 蜜蜂 A 和 蜜蜂 B)， 计算 两 者 中 目标 面积 较 小 
部 分 的 占 比 ， 若 其 小 于 设 定 的 阐 值 ， 且 将 较 小 部 
分 丢弃 ， 只 保留 面积 较 大 的 部 分 (蜜蜂 B); 若 
大 于 设 定 的 阔 值 ， 则 两 者 都 保留 ， 将 其 分 配给 各 
自 所 在 的 子 图 (蜜蜂 A) 并 重新 计算 其 坐标 ; 若 
目标 被 划分 为 四 部 分 ， 同 样 依据 其 占 比 确定 其 是 objects detection method 
否 保留 ， 并 同时 计算 其 在 子 图 中 的 新 坐标 。 原 目 2.3 模型 的 训练 和 使 用 
标 重 分 配 及 坐标 重 计 算 过 程 算 法 流程 如 图 5 
所 示 。 


图 4 尺度 自 适 应 小 目标 识别 算法 目标 重 分 配 过 程 示 意图 


Fig. 4 Process of objects reallocation of scale adaptive small 


由 于 新 数据 集 和 原 数 据 集 只 是 在 像素 尺度 上 


对 原 数据 集中 的 VaeA， 设 其 目标 集合 为 0% 设 保留 阅 值 为 E | 


计算 1 和 ur 所 属 的 子 图 在 原 图 中 的 位 置 zltrl,cD 和 z2(2,c2) | 


= ele” => —<el=c2 
Cle y A 


分 别 计算 四 部 分 与 o 的 面积 占 比 b11，b12，b21 和 b22 计算 o1 和 o2 与 o 的 面积 占 比 b1 和 b2 


重新 计算 目标 坐标 并 将 其 类 别 设置 为 c 
图 5 尺度 自 适应 小 目标 识别 算法 目标 重 分 配 过 程 算 法 流程 图 


Fig. 5 Objects reallocation algorithm flow chart for scale adaptive small objects detection method 
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进行 了 调整 ， 目 标的 特征 及 背景 不 变 ， 采 用 原 数 
据 集 训练 的 识别 模型 已 经 学 习 到 了 很 多 目标 特 
征 ， 与 像素 尺度 调整 后 的 目标 特征 具有 高 度 相似 
性 。 因 此 ， 采 用 迁移 学 习 继 续 训练 在 原 尺度 图 像 
训练 得 到 的 结果 模型 ， 加 快 模型 收敛 ,减少 模型 
训练 的 时 间 。 

模型 使 用 的 整体 流程 如 图 6 所 示 。 由 于 新 模 
型 针对 目标 尺度 较 大 的 图 像 ， 在 使 用 模型 时 同样 
需要 将 原 图 拆 分 为 多 个 子 图 。 为 使 子 图 衔接 处 的 
目标 能 被 准确 识别 ， 子 图 之 间 设 置 一 定 的 重 又 
K, 重合 率 的 比例 和 目标 的 像素 尺度 相关 ， 重 和 
尺度 和 目标 尺度 相似 即 可 ， 过 大 的 像素 尺度 会 造 
成 拆 分 子 图 数量 过 多 ， 降 低 算 法 时 效 性 。 


原 图 | | 计算 子 图 | | 还原 目 | | NMS 一 | 10S-NMS 
na Planas P ame P aa Peat 


图 6 尺度 自 适 应 小 目标 识别 算法 流程 图 


Fig. 6 Flow chart of scale adaptive small object detection al- 
gorithm 

将 每 个 子 图 输入 新 模型 得 到 该 子 图 中 的 目标 
集合 ， 然 后 依据 目标 坐标 及 其 所 属 子 图 在 原 图 中 
的 位 置 还 原 出 目标 在 原 图 中 的 坐标 ， 收 集 所 有 子 
图 检测 得 到 的 目标 集合 ， 采 用 NMS 移 除 由 于 模 
型 本 身 产 生 的 宛 余 框 〈 图 7 (a) )。 由 于 相 邻 子 
图 的 重合 区 域 目标 重复 ， 可 能 造成 识别 结果 中 同 
一 个 目标 存在 内 外 两 个 识别 框 的 问题 (图 7 (a) 
中 标注 A)。 这 是 因为 原 有 的 NMS 采用 交 并 比 
IOU (图 8) 作为 边界 框 的 定位 精度 (公式 (1) )， 
当 两 个 边界 框 面积 相差 较 大 且 两 者 相交 部 分 和 较 
小 的 边界 框 占 比 较 大 时 ， 交 并 比 的 值 小 于 设 定 效 
值 。 原 有 的 NMS 不 能 去 除 此 种 宛 余 框 ， 为 了 去 
除 般 套 处 不 完整 目标 识别 见 余 框 ， 采用 交 小 比 
TOS (公式 (2) ) 作为 两 个 识别 框 的 相似 性 度 
量 ， 研 究 了 一 种 交 小 比 非 极 大 抑制 (IOS-NMS ) 
方法 实现 对 其 内 部 元 余 框 的 去 除 ， 通 过 IOS- 
NMS 后 的 目标 识别 结果 见 图 7 (b)。 


(1) 


IOS= 一 一 一 一 一 (2) 


(a)NMS 识别 结果 


(b) Aa tg NMS 二 次 识别 结果 
图 7 基于 NMS 及 IOS-NMS 的 目标 识别 结果 
Fig. 7 Detections after non-maximum suppression and inter- 


section over small non-maximum suppression 


AUB 
B 


图 8 两 个 目标 边界 框 及 它们 的 交集 和 并 集 
Fig. 8 Two object bounding boxes and their intersection 


and union 
3 算法 性 能 评估 
3.1 试验 设计 

为 验证 本 算法 性 能 ， 以 蜂 场 中 的 蜜蜂 识别 为 
例 进行 验证 试验 。 试 验 硬件 环境 采用 CPU 型 号 
为 Intel Corei76700k, 4 4%— f GeForce GTX Ti- 
tanX 的 GPU， 系 统 操 作 系 统 为 Ubuntu， 采 用 Py- 
torch 深度 学 习 框 架 搭 建 网 络 。 

对 采集 的 2613 张 图 像 进行 手工 标注 ， 创 建 
蜜蜂 图 像 原始 数据 集 ， 图 像 中 蜜蜂 尺度 均值 ( 即 
蜜蜂 像素 数 与 图 像 总 像素 数 的 比值 ) 为 0.0037。 
采用 2.2 节 中 提出 的 拆 分 方法 建立 新 的 数据 集 ， 
子 图 尺寸 设置 为 360X320 像 素 ， 共 得 到 6269 张 
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图 像 ， 蜜 蜂 尺 度 均 值 约 为 0.028。 

选用 SSD 模 型 和 YOLOv3 深度 学 习 网 络 模 型 
作为 算法 中 的 目标 检测 模型 ， 首 先 采 用 原始 数据 
集训 练 模型 ， 分 别 得 到 针对 原始 图 像 的 原 模型 ， 
然后 使 用 迁移 学 习 的 方法 使 用 新 数据 集 继 续 训 练 
原 模 型 ， 即 新 尺度 SSD 模型 和 新 尺度 YOLOv3 模 
型 ， 获 取 针 对 新 数据 集 的 新 模型 ， 即 尺度 自 适应 
新 模型 。 采 用 同一 批 验 证 数据 集 进 行 验证 分 析 。 
为 避免 其 他 因素 的 影响 ， 测 试 中 新 算法 的 目标 检 


测 模 型 部 分 和 原 尺 度 的 相应 模型 设置 相同 的 置信 
EE BE 


3.2 性 能 验证 结果 分 析 


Kot FAR. FR BE BR TR 
W, 4p FGI) GE 300X300, 500X500 Fil 700 < 700 
像素 三 种 子 图 尺寸 和 0.2、0.05 MAT A es 
进行 验证 试验 。 采 用 精度 、 召 回 率 和 单 张 图 像 的 
计算 时 间 三 个 指标 评估 模型 性 能 ， 结 果 如 表 1 
所 示 。 


表 1 三 种 识别 模型 性 能 对 比分 析 结 果 


Table 1 Comparison results for the three detection models 


性 能 指标 召回 率 /% 精度 /% 平均 单 张 图 像 识 别 时间 /s 
原 尺度 SSD 模型 94.6 87.3 0.046 
原 尺度 YOLOv3 模 型 96.2 88.1 0.059 
尺度 自 适应 新 模型 (zr = zc = 300, os = 0.2) 98.4 89.9 0.970 
尺度 自 适应 新 模型 (zr = ze = 300, os = 0.05) 98.4 88.3 0.810 
尺度 自 适应 新 模型 (zr = zc = 500, os = 0.2) 98.4 89.9 0.512 
尺度 自 适应 新 模型 (zr = ze = 500, os = 0.05) 98.2 89.2 0.362 
尺度 自 适应 新 模型 (zr = zc = 700, os = 0.2) 97.8 89.6 0.315 
尺度 自 适应 新 模型 (zr = ze = 700, os = 0.05) 97.1 89.5 0.227 


TE: zr 和 zc 分 别 表示 子 图 的 高 度 和 宽度 ; os FEN FZ AY ES LE Bl 


由 验证 试验 结果 可 知 ， 和 原 尺度 SSD 模 型 
相 比 ， 尺 度 自 适应 目标 识别 算法 的 召回 率 普 i 
有 所 提升 ， 当 拆 分 像素 尺度 为 300X300 和 
500X500, HHA*H02IN, 召回 率 达 到 了 同 
样 的 最 高 值 98.4%， 较 原 尺度 SSD 模 型 高 3.8%。 

部 分 目标 检测 结果 对 比 图 如 图 9 所 示 。 可 
知 ， 在 识别 召回 率 方 面 ， 尺 度 自 适 应 目标 识别 算 
法 对 特征 不 明显 及 不 完整 蜜蜂 也 能 识别 出 来 。 如 
图 9 中 标注 1 的 只 有 局 部 的 蜜蜂 ， 标 注 2 的 是 由 
于 光照 或 者 蜜蜂 移动 的 原因 造成 的 不 清晰 的 蜜 
蜂 ， 标 注 3 的 是 由 于 蜜蜂 的 姿势 及 所 处 位 置 造 成 
的 蜜蜂 像素 尺度 更 小 的 蜜蜂 。 这 是 因为 本 算法 对 
原 图 进行 了 拆 分 ， 增 加 了 目标 物 的 尺度 ， 从 而 丰 
富 了 目标 特征 ， 能 识别 出 不 易 识 别 的 蜜蜂 。 当 子 
图 尺度 从 300X300 像 素 增加 至 700X700 像 素 时 ， 
召回 率 逐 渐 减 小 。 总 体 上 ， 召 回 率 随 着 子 图 尺度 
的 增 大 而 减 小 。 子 图 尺度 为 500X500 和 700X 


100BA. HAHA 0.05 时 的 召回 率 均 低 于 取 
值 0.2 时 的 召回 率 ， A ERME EA NK E yh 
而 减 小 。 

在 识别 精度 方面 ， 尺 度 自 适应 目标 识别 算法 
平均 精度 普遍 较 原 尺度 SSD 模型 有 所 提高 ， 尺 度 
分 别 为 300X300 和 500X500 像 素 、 重 至 率 均 为 
0.2 时 ， 模 型 的 精度 均 达 到 最 大 的 89.9%， 较 原 尺 
度 模型 的 87.3% 提高 了 2.6%。 当 子 图 尺度 为 
300X300 像素 、 尺 度 为 0.05 时 ， 精 度 最 低 为 
88.3%. 

尺度 自 适应 目标 识别 算法 的 召回 率 和 平均 精 
度 普遍 高 于 原 尺 度 YOLOv3 模 型 。YOLOv3 在 小 
目标 识别 方面 具有 较 优越 的 性 能 ， 使 用 残 差 网 络 
增加 了 网 络 的 深度 ,采用 多 层 特征 融合 的 方法 丰 
富 低 层 小 目标 的 语义 特征 ， 当 模型 的 输入 尺度 设 
为 其 默认 尺度 416X416 像 素 时 ， 其 召回 率 为 
95.1%. FY YOLOv3 专门 针对 小 目标 的 识别 对 
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SSD 原 模型 


(a) 识 别 结果 1 


(b) 识 别 结果 2 


(0) 识 别 结果 3 
图 9 尺度 自 适 应 小 目标 识别 算法 和 SSD 原 模 型 测试 识别 结果 对 比 图 “应 目标 识别 算法 具有 较 强 的 尺度 适应 能 
Fig. 9 Comparison results between the original single shot multibox detector Fy #IYZ 1K MERE. 


尺度 自 适应 目标 识别 算法 


由 图 10 可 知 ，SSD Bi HY HEA AR 
寸 较 小 的 picl 时 能 识别 出 1~2 个 蜜蜂 。 
随 着 图 像 尺 寸 的 增加 ， 在 pic2 上 能 识别 
出 3~8 个 蜜蜂 ， 而 在 尺寸 更 大 的 pic3 
上 均 没 能 识别 出 一 只 蜜蜂 。 而 尺度 自 适 
应 小 目标 识别 算法 由 于 通过 拆 分 为 子 图 
调整 了 蜜蜂 的 尺度 ， 能 更 好 地 适应 不 同 
尺度 的 输入 ， 尤其 是 当 子 图 尺寸 为 
300X300 像素 时 ， 识 别 性 能 并 没有 因 
为 原 图 尺寸 的 变化 而 有 明显 的 下 降 。 

由 于 模型 训练 中 没有 蜂 梨 及 整体 峰 
箱 等 相关 背景 的 图 像 ， 没 能 学 习 到 相关 
背景 的 特征 ， 同 时 选取 的 测试 图 像 中 均 
具有 高 密度 的 蜜蜂 ， 所 以 尺度 自 适应 目 
标识 别 算法 在 识别 的 准确 率 和 召回 率 方 
面 结 果 并 不 令 人 满意 。 但 是 ， 和 SSD 
模型 测试 对 比 结果 充分 说 明了 尺度 自 适 


model and the scale adaptive small object detection algorithm 


网 络 结构 进行 了 调整 ， 但 当 小 目标 有 效 像素 较 少 
时 ， 仍 会 由 于 特征 表达 不 充分 造成 困难 小 目标 识 
别 不 能 取得 满意 的 效果 。 

在 识别 速度 方面 ， 尺 度 自 适应 目标 识别 算法 
计算 速度 较 原 模型 普遍 降低 ， 尺 度 从 300X300 
增加 到 700 久 700 像素 时 ， 单 张 图 像 的 计算 时 间 
成 倍增 加 。 相 同 尺度 下 ， 重 厂 尺度 0.2 时 的 计算 
时 间 较 0.05 大约 多 1/5。 


3.3 复杂 环境 下 算法 性 能 测试 


为 评估 算法 的 尺度 自 适应 性 和 泛 化 性 ， 进 一 
步 验证 本 算法 在 复杂 环境 下 性 能 ， 从 网 上 疏 取 了 
三 张 不 同 尺度 、 不 同 背 景 下 的 野外 蜜蜂 图 像 进 行 
了 对 比 测试 。 图 像 详细 信息 如 表 2 TAR o 

采用 尺度 自 适 应 目标 识别 算法 和 SSD 模型 识 
别 蜜蜂 。 尺 度 自 适应 目标 识别 算法 分 别 采用 两 种 
子 图 尺度 为 300X300 和 500X500 像 素 ， EZX 
均 选 0.2。 识 别 结果 如 图 10 所 示 。 


表 2 尺度 自 适应 小 目标 识别 算法 测试 图 像 信息 
Table 2 Information for test images of scale adaptive small 


objects detection method 


到 像 名 称 分 辨 率 蜜蜂 尺度 均值 环境 
picl 670 X 420 4.9756” 野外 蜂 梨 
pic2 1440 1080 0.900e7 野外 蜂箱 侧面 
pic3 1920 1280 0.559% 野外 蜂箱 全 景 


4 ”讨论 与 结论 


4.1 讨论 


尺度 自 适应 目标 识别 算法 通过 将 原 图 拆 分 为 
多 个 子 图 作为 深度 学 习 网 络 的 输入 ， 增 加 了 目标 
的 尺度 ， 能 提取 丰富 的 目标 特征 ， 从 而 提高 识别 
性 能 ,尤其 在 目标 的 绝对 像素 数量 充分 且 目 标尺 
度 较 小 时 ， 尺 度 自 适应 目标 识别 算法 能 有 效 地 避 
免 输入 图 像 归 一 化 导致 的 目标 有 效 像素 数 过 度 减 
小 导致 的 目标 特征 提取 困难 的 问题 ， 能 更 充分 体 
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| | 原 SSD 模 型 | | 尺度 自 适应 小 目标 识别 算法 


(a) FARA KI} 300X300, FASS 


率 0.2 


(b) 子 图 像素 大 小 500X500, 子 图 重 登 率 0.2 


图 10 野外 不 同 尺度 蜜蜂 图 像 的 识别 结果 对 比 


Fig. 10 Bee detection results on images with different size in farmlands 


现 新 算法 的 性 能 。 

深度 学 习 网 络 推理 过 程 是 目标 识别 中 耗 时 占 
比 最 大 的 部 分 ， 通 过 拆 分 原 图 多 次 推理 会 导致 算 
法 的 时 效 性 下 降 ， 导 致 单 张 图 像 识 别 时 间 成 倍增 
加 ， 时 效 性 随 子 图 尺寸 的 减 小 而 增加 ， 较 高 的 重 
车 率 也 会 导致 子 图 数量 的 增加 造成 识别 时 间 增 
加 。 依 据 目 标的 像素 数 和 模型 的 输入 尺寸 ,选取 
合适 的 子 图 尺寸 和 重 概率 能 增加 精度 和 召回 率 ， 
同时 提高 模型 的 时 效 性 。 

终端 采集 设备 多 变 ， 导 致 采集 的 图 像 分 辨 率 
和 质量 不 一 ,尤其 是 农业 生产 中 ， 从 业 人 员 多 
样 ， 采集 设备 良 芜 不 齐 ， 若 对 所 有 尺寸 的 图 像 都 
一 次 性 输入 模型 中 ， 必 将 因为 目标 尺度 过 小 且 不 
一 导致 模型 性 能 下 降 。 本 研究 算法 首先 依据 采集 
目标 的 尺度 进行 拆 分 处 理 ， 实 现 对 所 有 尺度 图 像 
的 自动 处 理 ， 提 高 模型 的 尺度 适应 性 和 泛 化 
能 力 。 


4.2 结论 


本 研究 针对 农田 中 小 目标 识别 困难 ， 目 标尺 
度 多 变 造 成 的 识别 性 能 差 的 问题 ， 人 研究 了 一 种 提 
高 目标 有 效 像 素数 量 及 其 尺度 的 方法 以 提升 模型 
性 能 。 首 先 将 原 图 拆 分 为 多 个 子 图 ， 将 每 个 子 图 
作为 目标 检测 模型 的 输入 ， 然 后 采用 二 阶段 非 极 
大 值 抑 制 方法 实现 最 终 目 标的 计算 。 试 验 结果 表 
明 ， 该 方法 能 有 效 识 别 一 些 特征 不 明显 的 困难 目 
标 ， 尺 度 自 适 应 目标 识别 算法 的 召回 率 和 精度 都 
普遍 高 于 原 算法 ， 召 回 率 最 高 提高 3.8%， 精 度 
最 高 提高 2.6%。 本 算法 的 召回 率 和 精度 也 普遍 
高 于 YOLOv3 模 型 。 但 由 于 本 算法 时 效 性 较 差 ， 
适用 于 对 召回 率 和 精度 要 求 较 高 的 非 实时 性 
计算 。 
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Scale Adaptive Small Objects Detection Method in Complex 
Agricultural Environment: Taking Bees as Research Object 


GUO Xiuming, ZHU Yeping, LI Shijuan, ZHANG Jie, LYU Chunyang, LIU Shengping 


(Agricultural Information Institute, Chinese Academy of Agricultural Sciences/Key Laboratory of Agri-information 
Service Technology, Ministry of Agriculture and Rural Affairs, Beijing 100081, China) 


Abstract: Objects in farmlands often have characteristic of small volume and high density with variable light and complex back- 
ground, and the available object detection models could not get satisfactory recognition results. Taking bees as research objects, 
a method that could overcome the influence from the complex backgrounds, the difficulty in small object feature extraction was 
proposed, and a detection algorithm was created for small objects irrelevant to image size. Firstly, the original image was split 
into some smaller sub-images to increase the object scale, and the marked objects were assigned to the sub-images to produce a 
new dataset. Then, the model was trained again using transfer learning to get a new object detection model. A certain overlap 
rate was set between two adjacent sub-images in order to restore the objects. The objects from each sub-image was collected 
and then non-maximum suppression (NMS) was performed to delete the redundant detection boxes caused by the network, an 
improved NMS named intersection over small NMS (IOS-NMS) was then proposed to delete the redundant boxes caused by the 
overlap between adjacent sub-images. Validation tests were performed when sub-image size was set was 300x300, 500x500 and 
700x700, the overlap rate was set as 0.2 and 0.05 respectively, and the results showed that when using single shot multibox de- 
tector (SSD) as the object detection model, the recall rate and precision was generally higher than that of SSD with the maxi- 
mum difference 3.8% and 2.6%, respectively. In order to further verify the algorithm in small target recognition with complex 
background, three bee images with different scales and different scenarios were obtained from internet and test experiments 
were conducted using the new proposed algorithm and SSD. The results showed that the proposed algorithm could improve the 
performance of target detection and had strong scale adaptability and generalization. Besides, the new algorithm required multi- 
ple forward reasoning for a single image, so it was not time-efficient and was not suitable for edge calculation. 


Key words: object detection; machine vision; small object; farmland; bee; single shot multibox detector; YOLOv3 
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